我们提出了一种新型的复发图网络(RGN)方法,用于通过学习潜在的复杂随机过程来预测离散标记的事件序列。使用点过程的框架,我们将标记的离散事件序列解释为各种唯一类型的不同序列的叠加。图网络的节点使用LSTM来合并过去的信息,而图形注意力网络(GAT网络)引入了强烈的电感偏见,以捕获这些不同类型的事件之间的相互作用。通过更改自我注意力的机制从过去的事件中参加活动,我们可以从$ \ MATHCAL {O}(n^2)$(事件总数)到$ \ Mathcal的时间和空间复杂性降低{o}(| \ Mathcal {y} |^2)$(事件类型的数量)。实验表明,与最新的基于最新的变压器架构相比,所提出的方法可以提高对数可能具有较低时间和空间复杂性的对数可能具有较低时间和空间复杂性的任务的性能。
translated by 谷歌翻译
我们提出了一个模型不确定性感知的可区分架构搜索($ \ mu $ darts),该搜索优化神经网络以同时达到高精度和低不确定性。我们在DARTS单元中引入混凝土辍学,并在训练损失中包括一个蒙特卡洛正规器,以优化混凝土辍学概率。在验证损失中引入了预测差异项,以使搜索具有最小模型不确定性的体系结构。与现有的DARTS方法相比,CIFAR10,CIFAR100,SVHN和ImageNet上的实验验证了$ \ MU $ $ $ $ $ $的实验。此外,与从现有的飞镖方法获得的体系结构相比,从$ \ mu $ darts获得的最终体系结构显示出更高的噪声稳健性。
translated by 谷歌翻译
在这项工作中,我们提供了一个量子Hopfield关联内存(QHAM),并使用IBM量子体验展示其在仿真和硬件中的能力。 QHAM基于量子神经元设计,可以用于许多不同的机器学习应用,并且可以在真实量子硬件上实现,而不需要中间电路测量或重置操作。我们通过使用硬件噪声模型以及15 QUBIT IBMQ_16_MELBOURBORNE设备的模拟来分析神经元和全QHAM的准确性。量子神经元和QHAM被证明是有弹性的噪声,并且需要低Qubit开销和栅极复杂性。我们通过测试其有效的内存容量来基准QHAM,并在Quantum硬件的NISQ-ERA中展示其能力。该演示在NISQ-ERA量子硬件中实现的第一功能QHAM是在量子计算前沿的机器学习的重要步骤。
translated by 谷歌翻译
我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上,单调奖励函数$ f_t:2^{[n]} \ to \ m athbb {r} _+,$,为每个子集分配非阴性奖励$ [n],向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前(k \ leq n)$选择(也许是随机的)子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果,学习者在$ t^{\ text {th}} $ round上获得了$ f_t(s_t)$的奖励。学习者的目标是设计一项在线子集选择策略,以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面,我们提出了一种称为Score的在线学习策略(带有Core的子集选择),以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念,这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中,与在线政策相比,离线基准的功能适当增强。我们给出了几个说明性示例,以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略,并以许多开放问题的总结结束了论文。
translated by 谷歌翻译
我们提出了一个基于强化的学习框架,用于自动发现在脂肪机器人群的任何初始配置中可用的模式。特别是,我们对脂肪机器人群中无碰撞收集和相互可见性的问题进行了建模,并发现使用我们的框架来解决它们的模式。我们表明,通过根据某些约束(例如相互可见性和安全接口)来塑造奖励信号,机器人可以发现无碰撞的轨迹,导致形成良好的聚集和可见性模式。
translated by 谷歌翻译
尽管机器学习方法在其培训领域表现良好,但通常在现实世界中往往会失败。在心血管磁共振成像(CMR)中,呼吸运动代表了采集质量以及随后的分析和最终诊断的主要挑战。我们提出了一个工作流程,该工作流程预测CMRXMOTION挑战2022的CMR中呼吸运动的严重程度得分。这是技术人员在获取过程中立即提供有关CMR质量的反馈的重要工具,因为可以直接重新获得质量较差的图像,同时还可以重新获得质量。该患者在附近仍有可用。因此,我们的方法可确保获得的CMR在用于进一步诊断之前达到特定的质量标准。因此,在严重运动人工制品的情况下,它可以有效地进行适当诊断的有效基础。结合我们的细分模型,这可以通过提供完整的管道来保证适当的质量评估和对心血管扫描的真实细分来帮助心脏病专家和技术人员的日常工作。代码库可在https://github.com/meclabtuda/qa_med_data/tree/dev_qa_cmrxmotion获得。
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
许多具有某种形式听力损失的人认为唇读是他们日常交流的主要模式。但是,寻找学习或提高唇部阅读技能的资源可能具有挑战性。由于对与同行和言语治疗师的直接互动的限制,Covid $ 19 $流行的情况进一步加剧了这一点。如今,Coursera和Udemy等在线MOOCS平台已成为多种技能开发的最有效培训形式。但是,在线口头资源很少,因为创建这样的资源是一个广泛的过程,需要数月的手动努力来记录雇用的演员。由于手动管道,此类平台也受到词汇,支持语言,口音和扬声器的限制,并且使用成本很高。在这项工作中,我们研究了用合成生成的视频代替真实的人说话视频的可能性。合成数据可用于轻松合并更大的词汇,口音甚至本地语言以及许多说话者。我们提出了一条端到端的自动管道,以使用最先进的通话标题视频发电机网络,文本到语音的模型和计算机视觉技术来开发这样的平台。然后,我们使用仔细考虑的口头练习进行了广泛的人类评估,以验证我们设计平台针对现有的唇读平台的质量。我们的研究具体地指出了我们方法开发大规模唇读MOOC平台的潜力,该平台可能会影响数百万听力损失的人。
translated by 谷歌翻译
双打在电影业中起着必不可少的作用。他们代替了演员在危险的特技场景或同一演员扮演多个角色的场景中代替。后来,Double的脸被演员的脸部和表达式取代,并用昂贵的CGI技术手动表达,耗资数百万美元,花了几个月的时间才能完成。一种自动化,廉价且快速的方法可以是使用旨在将身份从源面部视频(或图像)交换为目标面部视频的面部交换技术。但是,这种方法无法保留演员对场景上下文重要的源表达式。 %对场景必不可少的。在电影院中必不可少的%。为了应对这一挑战,我们介绍了视频对视频(V2V)面部扫描,这是一项可以保留面部交换的新任务(1)源(演员)面部视频的身份和表达方式和(2)背景和目标(双重)视频的姿势。我们提出了一个V2V面部交换系统Cownoff,该系统通过学习强大的混合操作来运行,以根据上述约束来合并两个面部视频。它首先将视频减少到量化的潜在空间,然后将它们混合在减少的空间中。对抗以一种自我监督的方式进行了训练,并坚决应对V2V面部交换的非平凡挑战。如实验部分所示,面对面的表现明显优于定性和定量的交替方法。
translated by 谷歌翻译
随着视频录制的越来越多的流行率,对可以维护记录人员隐私的工具的需求日益增长。在本文中,我们定义了一种使用光学角色识别(OCR)和自然语言处理(NLP)技术的组合从视频中编辑个人身份文本的方法。当与不同的OCR模型,特别是Tesseract和Google Cloud Vision(GCV)的OCR系统时,我们检查了这种方法的相对性能。对于拟议的方法,GCV的性能以准确性和速度显着高于Tesseract。最后,我们探讨了现实世界应用中这两种模型的优势和缺点。
translated by 谷歌翻译